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(57) Abstract: The invention relates to a 
device for the photorealistic representation of 
dynamic complex three-dimensional scenes by 
means of ray tracing. Said device comprises at 
least one programmable ray tracing processor 
in which are implemented: special traversing 
commands; and/or vector arithmetic commands; 
and/or commands for establishing ray tracing 
acceleration structures; and/or at least one 
decision unit (mailbox) which prevents objects or 
triangles that have already been intersected by a 
beam during launching thereof when performing 
ray tracing from being intersected several times 
by said beam. The inventive device is organized 
such that several threads can be processed in 
parallel and several threads can automatically be 
processed in a synchronous manner, the device 
being provided with an n-level cache hierarchy 
and/or virtual memory management and/or a 
direct link to the main memory. 

(57) Zusammenfassung: Die vorliegende 
Erfindung betrifft eine Vorrichtung zur 
photorealistischen Darstellung von dynamischen 
komplexen dreidimensionalen Szenen mittels 
des Ray-Tracing Verfahrens, wobei diese 
wenigstens einen programmierbaren Ray -Tracing 
Prozessor aufweist, in dem implementiert 
sind: spezielle Traversierungsbefehle und/oder 
Vektorarithmetikbefehle 
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und/oder Befehle zur Erstellung von Ray -Tracing Beschleunigungsstrukturen und/oder wenigstens eine Entscheidungseinheit (Mail- 
box), mit der unterdruckt wird, dass bei Ausfuhrung des Ray-Tracing- Verfahrens beim SchieBen eines Strahles bereits mit dem Strahl 
geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl geschnitten werden, und wobei die Vorrichtung so organisiert ist, dass 
mehrere Threads parallel abgearbeitet werden konnen und mehrere Threads automatisch synchron abgearbeitet werden konnen und 
wobei die Vorrichtung uber eine n-level Cache Hierarchie und/oder uber eine direkte Verbindung mit dem Hauptspeicher. 
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Vorrichtung zur photorealistischen Darstellung von 
dynamischen komplexen dreidimensionalen Szenen 
mittels des Ray-Tracing Verfahrens 



Die Erfindung betrifft eine Vorrichtung, mit der dynamische, komplexe dreidimensionale 
Szenen mit hohen Bildwiederholraten unter Verwendung einer Echtzeit Ray-Tracing 
Hardwarearchitektur auf einem zweidimensionalen Display dargestellt werden konnen. 
Dynamische Szenen sind Szenen, in denen sich neben der Kameraposition auch die 
Geometrie der darzustellenden Objekte von Frame zu Frame andern kann. Die Erfindung 
zeichnet sich vor allem dadurch aus, dass sie eine Hierarchiestruktur von Objekten 
unterstutzt, das heifct die Hauptszene kann aus mehreren Objekten bestehen, die jeweils 
aus weiteren Objekten aufgebaut sind, wobei diese Schachtelung beliebig fortgefuhrt 
werden kann. Die auf den einzelnen Hierarchieebenen befindlichen Objekte konnen 
sowohl einzeln, als auch im Verbund bewegt werden. Hierdurch ist es moglich, komplexe 
Szenen mit hoher Dynamik zu erstellen und durch Verwendung des gleichen Objektes an 
mehreren Stellen der Szene die Representation der Szene im Speicher klein zu halten. 

Zur erfindungsgemaSen Realisierung dieser verschachtelten Objektebenen, wird die 
hardwaremaliige Umsetzung der bekannten Ray-Tracing-Pipeline um eine 
hardwaremaliig realisierte Transformationseinheit erweitert, welche die Strahlen in die 
Objekte hinein transformiert. Diese Einheit ist zur optimalen Ausnutzung der 
Hardwareressourcen nur einmal vorhanden und wird neben der Objektraumtransformation 
auch zur Berechnung des Schnittpunktes des Strahles mit einem Dreieck, der Erstellung 
von Primarstrahlen und zur Erstellung von Sekundarstrahlen verwendet. 

Durch die Verwendung von speziellen auf Ray-Tracing ausgelegten Prozessoren gestattet 
die Erfindung dem Anwender die voile Programmierbarkeit des Systems, indem 
erfindungsgemali eine neuartige Prozessorarchitektur, bestehend aus der Kombination 
eines Standard Prozessorkerns mit einem, Oder mehreren speziellen Ray-Tracing 
Befehlen verwendet wird. Die Verwendung dieser Ray-Tracing Prozessoren erlaubt die 
Programmierung verschiedenster Ray-Tracing- Verfahren. Primitive Objekte der Szene 
konnen programmierbar gestaltet werden, so dass im Gegensatz zu heutigen Grafikkarten 
auch die Verwendung von Spline Flachen moglich ist, indem ein spezieller 
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Schnittpunktberechnungsalgorithmus eines Strahles mit der Splineflache programmiert 
wird. Wie in heutiger Rasterisierungshardware ublich konnen verschiedenste 
Shadingmodelle fur Oberflachen programmiert werden. 

Zur Ausgabe der Bilddaten auf einem Display kann die Erfindung durch die Verwendung 
gemeinsamer Frame-Buffer und Z-Buffer mit einer dem Stand der Technik 
entsprechenden Rasterisierungshardware kombiniert werden. 



Stand der Technik 

Der Stand der Technik bezuglich der Darstellung von dreidimensionalen Szenen ist 
derzeit in zwei Haupt-Sektoren einzuteilen, das Rasterisierungsverfahren und das 
Ray-Tracing Verfahren (siehe Computer Graphics / Addison-Westey 
ISBN 0201848406). 

Das bekannte, vor allem in Computer-Graphikkarten zum Einsatz kommende 
Rasterisierungsverfahren beruht auf dem Prinzip, jede Geometrie der Szene auf einen 
Frame-Buffer und Z-Buffer zu projizieren. Hierzu werden die Farb- und Helligkeitswerte 
der Pixel im Frame-Buffer und die geometrischen Tiefenwerte im Z-Buffer gespeichert, 
jedoch nur dann, wenn der vorherige geometrische Wert im Z-Buffer grofter (weiter vom 
Betrachter entfernt liegend) als der neue ist. Hierdurch wird sichergestellt, dass nahere 
Objekte fernere uberschreiben und nach Ablauf des Verfahrens nur noch die wirklich 
sichtbaren Objekte im Frame-Buffer abgebildet sind. 

Dieses Verfahren hat jedoch den entscheidenden Nachteil, dass aufwandige Szenen mit 
Millionen von Objekten mit der bisher bekannten Hardware nicht in Echtzeit dargestellt 
werden konnen, da es in der Regel erforderlich ist, alle Dreiecke (Objekte) der Szene zu 
projizieren. Des weiteren wird ein Frame-Buffer und Z-Buffer benotigt, auf dem viele 
Milliarden Schreiboperationen in der Sekunde durchgefuhrt werden mussen, wobei zum 
Bildaufbau die meisten Pixel mehrfach pro Frame uberschrieben werden. Das 
Uberschreiben des zum Betrachter weiter entfernten Pixels durch Pixel naherer Objekte 
hat zur Folge, dass bereits berechnete Daten verworfen werden, wodurch eine optimale 
Systemleistung nicht realisiert werden kann. 

Schatten konnen mit aufwandigen Techniken auf heutiger Rasterisierungshardware 
berechnet werden, jedoch ergeben sich bei komplexen Szenen Probleme hinsichtlich der 
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Genauigkeit. Spiegelungen an gekrummten Flachen, sowie die Berechnung von 
Lichtbrechungen sind mit dieser Technik nicht physikalisch korrekt zu realisieren. 

Leistungssteigernde Verbesserung schafft ein zweites Verfahren, das Ray-Tracing 
Verfahren, das durch seine photorealistischen Bilder, aber auch durch die 
Rechenkomplexitat bekannt ist. Die Grundidee von Ray-Tracing steht in nahem Bezug zu 
physikalischen Lichtverteilungsmodellen (siehe Computer Graphics / Addison-Wesley 
ISBN 0201848406). 

In einer realen Umgebung wird Licht von Lichtquellen emittiert und nach physikalischen 
Gesetzen in der Szene verteilt. Mit einer Kamera kann das Bild der Umgebung 
eingefangen werden. Ray-Tracing geht den umgekehrten Weg und verfolgt das Licht von 
der Kamera, welche die Betrachterposition darstellt, zuruck zu ihrer Quelle. Hierzu wird fur 
jedes Pixel des Bildes ein virtueller Strahl in die, das Pixel beleuchtende, Richtung 
geschossen. Dieses Schiefien des Strahles nennt man Ray-Casting. Trifft der Strahl ein 
Objekt so berechnet sich die Farbe des Pixels unter anderem aus der Farbe des 
getroffenen Objektes, der Oberflachennormalen und den vom Auftreffpunkt sichtbaren 
Lichtquellen. Die sichtbaren Lichtquellen sind durch die Verfolgung der Sekundarstrahlen, 
die von jeder Lichtquelle zu dem Auftreffpunkt geschossen werden, zu ermitteln. Treffen 
diese Schattenstrahlen ein Objekt zwischen Lichtquelle und Auftreffpunkt, so liegt der 
Punkt im Schatten bezuglich der Lichtquelle. 

Dieses Verfahren ermoglicht neben der beschriebenen Schattenberechnung auch noch 
die Berechnung von Spiegelungen und der Brechungen des Lichtes, indem 
Reflexionsstrahlen bzw. gebrochene Sekundarstrahlen berechnet werden. Des weiteren 
konnen Szenen nahezu beliebiger Grolie gehandhabt und dargestellt werden. Der Grund 
hierfur liegt in der Anwendung einer Beschleunigungsstruktur. Dies ist ein spezielles 
Verfahren mit entsprechender Datenstruktur, die es ermoglicht, den virtuellen Strahl 
schnell durch die Szene zu „schielien" bzw. zu traversieren. Auf dem Weg werden einige 
Objekte selektiert, die mogliche Trefferkandidaten sind, wodurch der Auftreffpunkt schnell 
gefunden wird. Theoretische Untersuchungen haben ergeben, dass die Komplexitat des 
Ray-Tracing Verfahrens im Mittel logarithmisch mit der SzenengrolJe wachst. Das heifct, 
eine Quadrierung der Zahl der Objekte der Szene bedeutet lediglich den doppelten 
Rechenaufwand. 

Typische Beschleunigungsstrukturen sind zum Beispiel das regelmafJige Grid, der 
k-D Baum, der Octree und die Bounding-Volume-Hierarchy (siehe Computer Graphics / 
Addison-Wesley ISBN 0201848406). Allen diesen Verfahren liegt die Idee zu Grunde, den 
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Raum in viele Teilraume aufzuteilen und fur jeden solchen Teilraum die dort vorhandene 
Geometrie zu speichern. Das Traversierungsverfahren verfolgt den Strahl dann von 
Teilraum zu Teilraum und schneidet diesen immer mit genau den Objekten, die sich in 
dem Teilraum befinden. Die vier Verfahren unterscheiden sich nur in der Anordnung der 
Teilraume. Bei dem regelmafcigen Grid ist der Raum in wurfelformige Teilraume gleicher 
GrolSe unterteilt. Zur Veranschaulichung wird in diesem Zusammenhang auf die 
Darstellung der Figur 7 verwiesen. Die drei anderen Verfahren beruhen auf einer 
rekursiven Unterteilung des Raumes. Beim k-D Baum Verfahren wird der Startraum 
rekursiv an einer beliebigen Stelle achsenparallel geteilt. Hierzu wird zur 
Veranschaulichung auf Figur 8 verwiesen. Diese Aufteilung des Raumes wird in einer 
rekursiven Datenstruktur (einem binaren Baum) gespeichert. Das dritte Verfahren namens 
Octree, ist ebenfalls rekursiv, nur werden die betrachteten Teilraume immer in 8 
gleichgrofte rechteckige Teilraume unterteilt. Zur Veranschaulichung wird hierzu auf Figur 
9 verwiesen. Die Bounding-Volume-Hierarchie unterteilt den Raum in n beliebige 
Volumina, die sogar uberlappen durfen, was bei den anderen Verfahren nicht erlaubt ist. 

Im Gegensatz zum Rasterisierungsverfahren existiert momentan keine reine 
HardwarelSsung, die das Ray-Tracing-Verfahren umsetzt, sondern nur 
softwarebasierende Systeme, die vergleichsweise viel Rechenleistung und Rechenzeit 
erfordern. Zur Veranschaulichung des zeitlichen Umfanges der Berechnungen sei 
bemerkt, dass abhangig von der Komplexitat des Bildes und der verwendeten Software 
mit der momentan dem Stand der Technik entsprechenden PC Hardware eine Rechenzeit 
von einigen Sekunden bis zu mehreren Stunden benotigt wird, urn ein einzelnes Standbild 
nach diesem Verfahren zu erstellen. Die Berechnungen von Bewegtbildern erfordert 
entsprechend viel Rechenzeit und/oder die Verfugbarkeit von speziellen Grolirechnern. 

Der Lehrstuhl Computergraphik an der Universitat des Saarlandes hat ein 
softwarebasiertes Echtzeit Ray-Tracing System entwickelt, das auf einem Cluster von 
uber 20 Rechnern zum Einsatz kommt. 

Im US Patent 6,597,359 B1 ist eine Hardwarelosung fur das Ray-Tracing Verfahren 
beschrieben, der sich jedoch auf statische Szenen beschrSnkt. 

Das US Patent 5,933,146 beschreibt ebenfalls eine Hardwarelosung fur das Ray-Tracing- 
Verfahren, auch eingeschrankt auf statische Szenen. 

Das Paper „SaarCOR - A Hardware Architecture for Ray-Tracing" vom Lehrstuhl 
Computergraphik der Universitat des Saarlandes beschreibt eine Hardwarearchitektur fur 
Ray-Tracing jedoch wiederum limitiert auf statische Szenen. 
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Das Paper „A Simple and Practical Method for Interactive Ray-Tracing of Dynamic 
Scenes" vom Lehrstuhl Computergraphik der Universitat des Saarlandes beschreibt einen 
Softwareansatz zur Unterstutzung von dynamischen Szenen in einem Ray-Tracer. Das 
beschriebene Software Verfahren verwendet jedoch nur eine Stufe von Objekten, kann 
also keine Schachtelung in mehreren Stufen durchfuhren. 

Der beschriebene Stand der Technik bietet momentan weder Software- noch 
Hardwarelosungen, mit denen komplexe dynamische Szenen in Echtzeit dargestellt 
werden konnen. Bei den bekannten Rasterisierungsverfahren liegt die 
Leistungsbegrenzung in der Zahl der darzustellenden Objekte. 

Ray-Tracing Systeme konnen zwar viele Dreiecke darstellen, sind jedoch wegen der 
benotigten Vorberechnungen darin beschr^nkt, dass die Position nur eingeschrankt 
geandert werden kann. Szenen aus einigen Milliarden Dreiecken erfordern sehr viel 
Rechenleistung und Speicher und sind nur auf schnellen und komplexen GroBrechnem 
Oder Clusterlosungen zu handhaben. 

Deshalb sind mit der verfugbaren Personal-Computerhardware softwarebasierte 
dynamische Echtzeit Ray-Tracing Systeme nicht realisierbar. Die beschriebene 
Clusterlosung durfte aus Kostengrunden auf Spezialanwendungen beschrankt bleiben. 

Demgegenuber liegt der vorliegenden Erfindung die Aufgabe zu Grunde, eine Vorrichtung 
vorzuschlagen, mit der sich Ray-Tracing-Verfahren schneller - vorzugsweise auch in 
Echtzeit - in dynamischen komplexen dreidimensionalen Szenen derart ausfuhren lassen, 
dass sich eine photorealistische Darstellung ergibt. 

Diese Aufgabe wird durch eine Vorrichtung nach Anspruch 1 gelost, indem diese 
Vorrichtung wenigstens einen programmierbaren Ray-Tracing Prozessor aufweist, in dem 
implementiert sind; 

• spezielle Traversierungsbefehle und/oder 

• Vektorarithmetikbefehle und/oder 

• Befehle zur Erstellung von Ray-Tracing Beschleunigungsstrukturen und/oder 

• wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdruckt wird, dass bei 
Ausfuhrung des Ray-Tracing-Verfahrens beim Schiefcen eines Strahles bereits mit 
dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl 
geschnitten werden. 

Der Aufbau der Vorrichtung ist so organisiert, dass mehrere Threads parallel abgearbeitet 
werden und mehrere Threads automatisch synchron abgearbeitet werden konnen. 
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Weiterhin verfugt die Vorrichtung uber eine n-level Cache Hierarchie und / oder uber ein 
virtuelles Speichermanagement und/oder eine direkte Verbindung mit dem Hauptspeicher. 



Diese Vorrichtung kann vorzugsweise als FPGA und / oder in ASIC Technologie und / 
oder einer anderen logikbasierten Halbleitertechnologie oder in diskreter integrierter Logik, 
oder in der Kombination dieser Technologien realisiert sein. 

Zur naheren Erorterung der Entscheidungseinheit wird auf Figur 2 verwiesen, aus der zu 
sehen ist, dass die Listen Einheit um eine Mailbox erweitert wird. Diese Mailbox 
verhindert, dass ein Dreieck oder Objekt beim SchieSen eines Strahles mehrfach mit dem 
Strahl geschnitten wird, indem es sich bereits mit dem Strahl geschnittene Objekte oder 
Dreiecke merkt. Dadurch mussen nicht so viele Strahl-Objekt- bzw. Strahl-Dreiecks- 
Schnittpunktberechnungen durchgefuhrt werden, was die Berechnung beschleunigt. Die 
Mailbox kann als eine Art Schnittpunktberechnungscache angesehen werden, der im 
Gegensatz zu einem Speichercache nicht Speicheranfragen zum Speicher verhindert, 
sondern Schnittpunktberechnungen. Zur Implementierung der Mailbox konnen 
standardmaSige Cachingverfahren wie 4-Wege-Caches verwendet werden. 

Anspruch 2 betrifft eine Vorrichtung zur photorealistischen Darstellung von dynamischen 
komplexen dreidimensionalen Szenen mittels des Ray-Tracing Verfahrens, wobei diese 
wenigstens eine spezielle Traversierungs-Einheit aufweist und wenigstens eine Listen- 
Einheit und wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdruckt wird, 
dass bei Ausfuhrung des Ray-Tracing-Verfahrens beim Schielien eines Strahles bereits 
mit dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl geschnitten 
werden, und wenigstens eine Schnittpunktberechnungs-Einheit und wenigstens eine 
Einheit zum Erstellen von Beschleunigungsstrukturen und wenigstens eine 
Transformations-Einheit und/oder wenigstens eine Einheit zum Losen von linearen 
Gleichungssystemen und dass mehrere Strahlen oder Threads parallel abgearbeitet 
werden konnen und mehrere Strahlen bzw. Threads automatisch synchron abgearbeitet 
werden konnen und beliebig viele Stufen von dynamischen Objekten in dynamischen 
Objekten realisiert werden konnen und dass die Vorrichtung uber eine n-level Cache 
Hierarchie und / oder uber ein virtuelles Speichermanagement und/oder eine direkte 
Verbindung mit dem Hauptspeicher verfugt. 

Bei der Ausgestaltung nach Anspruch 3 ergibt sich als Unterschied zu der Ausgestaltung 
nach Anspruch 2, dass die wenigstens eine Transformations-Einheit und / oder die 
wenigstens eine Einheit zum Losen von linearen Gleichungssystemen und / oder die 
wenigstens eine Schnittpunktberechnungs-Einheit im Anspruch 2 bei dem Anspruch 3 



WO 2005/078665 PCT/DE2005/000266 

7 

durch einen Ray-Tracing Prozessor erganzt wurde, der bereits in Anspruch 1 erlautert 
wurde. 

Diese auf dem Ray-Tracing Verfahren basierende Vorrichtung zur photorealistischen 
Darstellung dreidimensionaler bewegter Szenen, bei der die softwaremaBig definierten 
Beschleunigungsstrukturen und Verfahren in entsprechende Hardwarestrukturen 
umgesetzt sind, ist vorrangig zum Echtzeiteinsatz vorgesehen. 

Zur Realisierung beliebiger ungeordneter Dynamik in einer Szene muss fur jedes Bild der 
Bildfolge die Beschleunigungsstruktur neu berechnet werden. Dies bedeutet bei grofien 
Szenen einen enorm grofcen Rechenaufwand da die gesamte Geometrie der Szene 
„angefasst" werden muss. Hierbei verschwindet der Vorteil der logarithmischen 
Komplexitat in der SzenengrdGe. 

Eine im Paper „A Simple and Practical Method for Interactive Ray-Tracing" beschriebene 
Ldsung zu diesem Problem ist die Unterteilung der Szene in Objekte und ausschlielilich 
das Bewegen dieser Objekte als Ganzes zu erlauben. Hierbei werden zwei 
Beschleunigungsstrukturen benotigt. 

Eine Top-Level Beschleunigungsstruktur uber den Objekten der Szene und jeweils eine 
Bottom-Level Beschleunigungsstruktur fur jedes der Objekte. Die Objekte werden hierbei 
in Form von Instanzen von Objekten in der Szene positioniert 

Der Unterschied eines Objektes zu der Instanz desgleichen liegt darin, dass eine Instanz 
eines Objektes aus einem Objekt und einer Transformation besteht Die Transformation 
ist eine affine Funktion, die das Objekt an eine beliebige Stelle der Szene verschiebt. 
Affine Transformationen erlauben des weiteren ein Skalieren, Rotieren und Scheren (engl. 
shearing) von Objekten. Im folgenden wird der Einfachheit halber auch fur Instanzen von 
Objekten der Begriff Objekt verwendet, falls keine Verwechslungsmoglichkeit besteht. 

Ein Strahl wird zunachst durch die Top-Level Beschleunigungsstruktur traversiert (Strahl 
durch die Szene verfolgen) bis ein mdgliches Treffer-Objekt (das vom Strahl getroffene 
Objekt) gefunden wird. Nun transformiert man den Strahl in das lokale Koordinatensystem 
des Objektes und traversiert in der Bottom-Level Beschleunigungsstruktur des Objektes 
weiter bis ein Treffpunkt mit einem Primitiven Objekt gefunden ist. Primitive Objekte sind 
Objekte, die in sich keine weitere Struktur besitzen. Bei Ray-Tracern sind das in der Regel 
Dreiecke und Kugela 
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Diese Methode funktioniert in der Praxis sehr gut, jedoch nur so lange die Zahl der 
Objekte nicht zu grofi wird, da die Top-Level Beschleunigungsstruktur in jedem Bild neu 
aufgebaut werden muss. Das neue Aufbauen dieser Beschleunigungsstruktur ist 
erforderlich, wenn die Objekte in dieser bewegt wurden. 

Die Erfindung stellt nun eine Hardwarelosung dar, die obige Aufteilung der Szene in 
Objekte rekursiv unterstutzt. Das heilit, sie schrankt sich nicht auf Objekte ein, die aus 
Primitiven Objekten bestehen, sondern erlaubt ebenfalls, dass sich diese Objekte wieder 
aus Objekten zusammensetzen, die wiederum aus Objekten bestehen konnen usw. Fig.1 
zeigt wie aus mehreren Stufen von Objekten ein Baum erstellt werden kann. Zunachst 
wird als Objekt der Stufe 1 ein Blatt modelliert. Dieses Blatt wird nun mehrfach instantiiert 
und an einen Ast gesetzt, wodurch ein weiteres Objekt entsteht, jedoch jetzt ein Objekt 
der Stufe 2. Diese kleinen Aste konnen nun wieder mehrfach instantiiert werden zu einem 
grolieren Ast oder Baum als Objekt der Stufe 3 usw. Es ist anzumerken, dass hier 
mehrere Ebenen von Objekten in Objekten vorkommen und dass die Representation der 
Szene durch das mehrmalige Benutzen gleicher Geometrien klein ist. 

Das in der Erfindung nach Anspruch 2 zum Einsatz kommende Verfahren fur das Ray- 
Casting sieht wie folgt aus: 

Der Strahl wird durch die Beschleunigungsstruktur der obersten Stufe traversiert bis ein 
mogliches Treffer-Objekt gefunden ist. Falls das Objekt ein Primitives Objekt ist, so wird 
der Schnittpunkt des Strahles mit dem Objekt berechnet. Ist das Objekt kein Primitives 
Objekt, so wird der Strahl in das lokale Koordinatensystem des Objektes transformiert und 
setzt dort die Traversierung rekursiv fort. 

Ein wesentlicher Teil des Verfahrens ist die Transformation des Strahles in das lokale 
Koordinatensystem des Objektes, wodurch im Prinzip die Positionierung des Objektes 
durch die affine Transformation ruckgangig gemacht wird. Das heiftt, der transformierte 
Strahl sieht das Objekt nun nicht mehr transformiert. Dieser Transformationsschritt 
erfordert eine recht aufwSndige affine Transformation des Strahlstartpunktes und der 
Strahlrichtung, wobei jedoch die dazu erforderliche aufwandige Hardwareeinheit 
zusatzlich noch fur weitere Aufgaben einsetzbar ist. Es stellt sich heraus, dass die 
Transformationseinheit ebenfalls zur Berechnung des Schnittpunktes mit vielen Arten von 
Primitiven Objekten, zur Berechnung von Primarstrahlen und zur Berechnung vieler Arten 
von Sekundarstrahlen verwendet werden kann. 

Zur Berechnung der Primarstrahlen wird eine ahnliche Kameratransformationsmatrix 
angewandt, wie bei den bekannten Rasterisierungsverfahren. Zunachst werden 
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Pre-Primarstrahlen der Gestalt R=((0,O l O) l (x,y ) 1)) , also Strahien mit dem Startpunkt 
(0,0,0) und der Richtung (x,y,1) definiert, wobei x und y die Koordinaten des Pixels zu 
dem ein Primarstrahl berechnet werden soli darstellt. Zu jeder Kameraposition und 
Ausrichtung gibt es eine affine Transformation, die den Strahl R derart transformiert, dass 
er genau der Einfallsrichtung des Pixel (x,y) der Kamera entspricht. 

Urn den Schnittpunkt mit einem Primitiven Objekt zu berechnen, wird der Strahl in einen 
Raum transformiert, in dem das Primitive Objekt normiert ist. (m Falle eines Dreiecks als 
Primitives Objekt, wird der Strahl beispielsweise derart in einen Raum transformiert, dass 
das Dreieck die Gestalt A n0 rm=((1, 0,0), (0,0,0), (0,1,0)) hat. Zur Veranschaulichung wird auf 
Figur 10 verwiesen. Diese Transformation kann durch eine affine Transformation 
• geschehen. Die anschliefiende Schnittpunktberechnung mit dem Normdreieck ist im 
Gegensatz zum allgemeinen Fall sehr einfach in Hardware zu losen. Wird die 
Transformation derart gewahlt, dass die Dreiecksnormale auf den Vektor (0,0,1) im 
Dreiecksraum transformiert werden, so lasst sich das Skalarprodukt aus Strahl und 
Dreiecksnormale sehr einfach im Dreiecksraum berechnen, da das Skalarprodukt aus 
Strahlrichtung (xt.yt.zt) und der Dreiecksnormalen (0,0,1) gerade 0*xt+0*yt+1*zt = zt ist. 

Die Transformation kann des weiteren so gewahlt werden, dass nur 9 Flieftkommazahlen 
fur deren Representation benotigt werden, indem die Dreiecksnormale auf eine geeignete 
Normale im Norm-Dreiecksraum abgebildet wird. Dies verhindert jedoch die Moglichkeit, 
das Skalarprodukt im Norm-Dreiecksraum zu berechnen. 

Es ist klar ersichtlich, dass diese Normobjekttransformation auch fur andere Arten von 
Objekten verwendet werden kann, wie beispielsweise Kugeln, Ebenen, Quader, Zylinder 
und viele weitere geometrische Gebilde, es ist jeweils nur eine andere 
Schnittpunktberechnungseinheit zu erstellen. 

Ein grolier Vorteil hierbei ist die Tatsache, dass jede Art von Primitivem Objekt die gleiche 
Representation im Speicher besitzt, namlich eine affine Transformation, die in den 
Objektnormraum transformiert. Dies erleichtert die Konzeption des Speicherinterface einer 
Hardwarelosung. Die Transformation in den Objektnormraum nennt man die 
Normraumtransformation. 

Schattenstrahlen sowie Spiegelungen lassen sich durch die Berechnung geeigneter 
Transformationen und geeigneter Strahien effizient durch die Transformationseinheit 
berechnen. 
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Des weiteren ist es moglich, mit der Transformationseinheit Normalen (Vektoren die 
senkrecht auf einer Flache stehen) zu transformieren. Diese Normalentransformation ist 
deswegen notig, da einige Shadingmodelle die Normale der Geometrie am Auftreffpunkt 
benotigen. Diese Normale muss jedoch im Weltkoordinatensystem vorliegen, was bei 
obigem Verfahren nicht zwangslaufig der Fall ist. Vielmehr liegt die Normale erstmals nur 
im lokalen Koordinatensystem des getroffenen Objektes vor. Sie muss von dort wieder 
zuruck in das Weltkoordinatensystem transformiert werden. 

Die Transformationseinheit hat jedoch auch einen Nachteil. Da die affinen 
Transformationen, die als Matrizen gespeichert werden konnen, sowohl fur Dreiecke also 
auch fur die Objekte der Szene vorberechnet werden mtissen, ist es nicht ohne weiteres 
mdglich, die Position der Dreieckseckpunkte effizient von Frame zu Frame zu andern. 
Dies ist in Vertexshadern auf heutigen Grafikkarten jedoch mdglich. Vertexshader sind 
programmierbare Spezialeinheiten, die darauf optimiert sind, Bewegungen von Punkten 
im Raum zu berechnen. 

Urn dies zu ermoglichen, muss man sich von der Vorberechnung der Daten losen. 
Demzufolge ist es dann erforderlich, zur Schnittpunktsberechnung mit einem Dreieck ein 
lineares Gleichungssystem mit drei Unbekannten zu losen. Dieses explizite Losen 
erfordert zwar mehr FliefXkomma-Operationen, ist jedoch in Verbindung mit 
Vertexshadern erforderlich. Demzufolge kann es sinnvoll sein, obige 
Transformationseinheit durch eine Einheit, die ein lineares Gleichungssystem lost, zu 
ersetzen. Diese Einheit kann unter anderem dazu verwendet werden, urn mit Dreiecken 
zu schneiden oder Strahlen in das lokale Koordinatensystem eines Objektes zu 
transformieren. 

Das in der Erfindung nach Anspruch 1 zum Einsatz kommende Verfahren fur das Ray- 
Casting gliedert sich analog zu dem nach Anspruch 2 beschriebenen Verfahren, mit dem 
Unterschied, dass die Transformation und die Schnittpunktberechnung durch geeignete 
Anweisungen fur den Ray-Tracing Prozessor umgesetzt werden. Hierbei bietet sich 
insbesondere die Moglichkeit alternative Verfahren zur Objekt-Strahl- 
Schnittpunktberechnung einzusetzen. Beispielsweise ermoglicht die Verwendung des 
Plucker-Strahl-Dreieckstests den effizienten Einsatz von Vertexshadern. 

Ein Problem von detailreichen Szenen sind unerwunschte Aliasing Effekte, die vor allem 
dann entstehen, wenn die Objektdichte in einer Richtung sehr hoch ist, Dann kann es 
passieren, dass ein Strahl beispielsweise ein schwarzes Dreieck trifft und bei einer 
minimalen Bewegung der Kamera plotzlich ein weilies Dreieck getroffen wird. Solche 
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Effekte fuhren zu einem zeitlichen und ortlichen Rauschen im Bild. Der Grund liegt darin, 
dass Ray-Tracing in der Regel unendlich schmale Strahlen verwendet und nicht 
berucksichtigt, dass sich das Licht, das einen Pixel beeinflusst, pyramidenformig 
ausbreitet und sich der Strahi mit der Entfernung aufweitet. So mussten eigentlich alle 
Objekte, die sich in dieser Strahlenpyramide befinden, zur Berechnung der Pixelfarbe 
herangezogen werden, was in einem Echtzeitsystem nicht moglich ist. Abhilfe schafft hier 
eine neue vereinfachte Form des Cone-Tracings. Anstatt einen beliebig schmalen Strahi 
zu betrachten, wird zusatzlich der Offnungswinkel des Strahles bewertet. So kann je nach 
Entfernung zur Kamera die entsprechende Strahlbreite berechnet werden. Trifft man bei 
der Traversierung auf einen Teilraum, der zu einem GrofJteil von dem Strahi uberdeckt 
wird, so ist es unter Umstanden nicht sinnvoll, weiter zu traversieren. An dieser Stelle 
kann vorteilhaft eine vereinfachte Geometrie des Volumeninneren zur Berechnung 
verwendet werden. Dabei kann dann ignoriert werden, dass in dem Volumina vielleicht 
eine Million Dreiecke sind. Diese Dreiecke bilden unter Umstanden nur die Wand eines 
Gebirges, die wegen der Grofle des Strahles auch durch eine farbige Ebene approximiert 
werden kann. 

Falls die Dreiecke jedoch ein lochriges Gebilde wie zum Beispiel den Eifelturm 
modellieren, ist als Approximation eher die Farbe der konstruktiven Gitterelemente und 
ein Transparenzwert zu wahlen. 

Vorteilhaft lassen sich solche vereinfachten Geometriereprasentationen in der 
Beschleunigungsstruktur unterstutzen. Figur 6 zeigt das Konzept am Beispiel eines 
Octrees. Zu dem fett umrandeten Volumina, zu dem ein Knoten in der 
Beschleunigungsstruktur gehort, ist die vereinfachte Geometrie abgebildet. Der Strahi 
uberlappt fast mit dem gesamten Volumen des Knotens, so dass die vereinfachte 
Geometrie zur Schnittpunktsberechnung verwendet wird. 

Eine alternative Methode besteht darin, die Objekte der Szene mit unterschiedlichen 
Detaillevel abzuspeichern. Das heiSt, dass die Objekte mit unterschiedlicher Auflbsung 
oder Anzahl von Dreiecke modelliert werden und dass weiterhin abhangig von der 
Entfernung der Objekte zur Kamera detailreiche oder vereinfachte Objekte verwendet 
werden. 

Als nachteilig konnte bei der oben beschriebenen festverdrahteten, hardwarebasierten 
Ray-Tracing-Pipeline angesehen werden, dass es aufwandig ist, sie programmierbar zu 
gestalten. Im Vergleich zu einem Software Ray-Tracing Ansatz, wirkt die 
hardwarebasierte Pipeline sehr starr und speziell. 
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Abhilfe schafft die Entwicklung einer speziell auf das Ray-Tracing Verfahren angepassten 
CPU. Dieser spezielle Ray-Tracing Prozessor besteht aus einer Standard CPU, wie 
beispielsweise einem RISC Prozessor, dessen Befehlssatz um spezielle Befehle erweitert 
wird. Insbesondere ist ein Traversierungs-Befehl wichtig, der den Strahl durch eine 
Beschleunigungsstruktur traversiert. Einige Stellen des Verfahrens erfordern des weiteren 
aufwandige arithmetische Operationen, die vorwiegend im dreidimensionalen Raum 
geschehen. Es ist demnach sinnvoll, die CPU mit einer Vektorarithmetikeinheit 
auszustatten, ahnlich den heute gelaufigen SSE2 Befehlssatzen. 

Eine weitere Optimierung der CPU kann dadurch erreicht werden, dass die 
Parallelisierbarkeit des Verfahrens ausgenutzt wird. Es ist demnach moglich, sehr effektiv 
mehrere Threads (Programmablaufe) auf einer CPU laufen zu lassen, was die Auslastung 
und Effektivitat der CPU deutlich erhoht. Dies gilt vor ailem im Hinblick auf die 
Speicherwartezeiten. Macht ein Thread eine Speicheranfrage, so kann ein anderer 
wahrend der Anfrage ausgefuhrt werden. Ein beispielhafter Aufbau solch einer CPU ist in 
Figur 5 zu sehen. 

Da bei dynamischen Szenen fur jedes Frame Neuberechnungen von 
Beschleunigungsstrukturen durchgefuhrt werden mussen, ist es erforderlich, den 
Befehlssatz der CPU um spezielle Befehle zur Erstellung von Beschleunigungsstrukturen 
zu erweitern. Bei der Erstellung von Beschleunigungsstrukturen muss oft entschieden 
werden, ob sich ein Objekt in einem gegebenen Teilraum befindet, in den es einsortiert 
werden soli, oder nicht. Eine spezielle Einheit, welche die Erstellung von 
Beschleunigungsstrukturen optimiert, kann die erforderliche Berechnung dadurch 
beschleunigen, dass diese eine sehr einfach zu berechnende Vorabentscheidung fallt. Als 
Teilraume werden haufig Boxen verwendet, deren 6 Begrenzungsflachen senkrecht auf 
der x,y bzw z- Achse stehen. Solch eine Box kann durch ihre Eckpunkte charakterisiert 
werden, wobei die Definition von lediglich zwei Punkten sogar ausreicht. Die 
Bestimmung/Entscheidung, ob sich das Dreieck in dieser Box befindet, kann in vielen 
Fallen mittels simpler Vergleiche der Koordinaten der Punkte erfolgen. Liegt das Dreieck 
zum Beispiel in X-Richtung weit links von der Box so sind die X - Koordinaten der 3 
Eckpunkte des Dreiecks alle kleiner als die kleinste X- Koordinate der Eckpunkte der Box 
(siehe Fig. 13). Auch viele andere Konstellationen kannen so entschieden werden, zum 
Beispiel, ob sich das Dreieck vollstandig in der Box befindet. Falls keine Entscheidung 
moglich ist, so mussen aufwandige mathematische Formeln wie das SAP (Separating 
Axis Theorem) angewendet werden. Die Entscheidung, ob eine Box mit einer anderen 
Box uberlappt, kann ebenfalls mit den Eckpunktvergleichen entschieden werden. 
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Zur weiteren Optimierung wird eine Entscheidungseinheit eingesetzt, die verhindert, dass 
beim Schiefcen eines Strahles bereits mit dem Strahl geschnittene Objekte Oder Dreiecke 
mehrfach mit dem Strahl geschnitten werden. Dies geschieht dadurch, dass die Listen 
Einheit wie in Figur 2 zu sehen urn eine Mailbox erweitert wird. Diese Mailbox verhindert, 
dass ein Dreieck Oder Objekt beim SchieSen eines Strahles mehrfach mit dem Strahl 
geschnitten wird, indem es sich bereits mit dem Strahl geschnittene Objekte oder 
Dreiecke merkt. Dadurch mussen nicht so viele Strahl-Objekt- bzw. Strahl-Dreiecks- 
Schnittpunktberechnungen durchgefuhrt werden, was die Berechnung beschleunigt Die 
Mailbox kann als eine Art Schnittpunktberechnungscache angesehen werden, der im 
Gegensatz zu einem Speichercache nicht Speicheranfragen zum Speicher verhindert, 
sondern Schnittpunktberechnungen. Zur Implementierung der Mailbox konnen 
standardmaliige Cachingverfahren wie 4-Wege-Caches verwendet werden. 

Die Einheiten der Ray-Tracing Architektur benotigen eine sehr hohe Speicherbandbreite, 
das heifct, es mussen sehr viele Daten pro Zeiteinheit ubertragen werden. Normalerweise 
ist dies nur zu realisieren, indem sehr viele Speicherchips parallel geschaltet werden. Die 
erforderliche Speicherbandbreite kann jedoch auch durch eine geeignete Verschaltung 
von mehreren Cachestufen (n-Level Caches) sichergestellt werden. Wesentlich ist hier 
eine Eigenschaft des Ray-Tracing Verfahrens, die als Koharenz bezeichnet wird. 
Koharenz bezeichnet die Tatsache, dass Strahlen, die ahnliche Bereiche des 3D Raumes 
durchlaufen, auch auf nahezu die gleichen Daten in der Beschleunigungsstruktur 
zugreifen und dementsprechend also auch auf die gleichen Objekte. Wird diese 
Eigenschaft ausgenutzt, konnen hohe Cache Hitraten erzielt werden. Das heifit, die 
benotigten Daten werden mit grolier Wahrscheinlichkeit im Cache wiedergefunden und 
brauchen nicht zeitaufwandig aus dem Hauptspeicher geladen zu werden. Die Caches an 
sich sind entsprechend der Darstellung in Figur 4 beispielsweise in einem binaren Baum 
angeordnet, urn mehrere Ray-Tracing Einheiten zu versorgen. 

Die erfindungsgemade Vorrichtung kann in Verbindung mit einem 3D Display naturlich 
auch zur photorealistischen dreidimensionalen Echtzeitdarstellung komplexer bewegter 
Szenen verwandt werden. Abhangig von der Technologie des eingesetzten Displays sind 
hierbei drei Ausfuhrungsformen der Bildausgabe zu unterscheiden. 

Erstens eine Ausfuhrungsform, bei der abwechselnd zwei den Stereoeindruck 
beinhaltende Bilder horizontal versetzt im Zeitmultiplexverfahren auf einem Display 
dargestellt werden. 
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Zweitens eine Ausfuhrungsform, bei der zwei den Stereoeindruck reprasentierende, 
horizontal versetzte Bilder, die in abwechselnden senkrechten, die Bildinformation der 
beiden Bilder beinhaltende Streifen auf einem Display dargestellt werden. 

Drittens eine Ausfuhrungsform, bei der die beiden horizontal versetzten Bilder auf zwei 
getrennten Displays gleichzeitig Oder im Zeitmultiplexverfahren dargestellt werden. 

Die beiden horizontal versetzten Bilder, die jeweils dem rechten oder linken Auge 
zuzuordnen sind, werden durch entsprechend raumliche Displayanordnungen oder durch 
den Einsatz von Bildtrennvorrichtungen (z.B. Shutterbrillen, streifenformige Fresnel- 
Prismen/Linsen, Polarisationsfilter) jeweils nur einem Auge sichtbar. Die einzusetzenden 
3D Displays und deren Erfordernisse der Videosignalansteuerung entsprechen dem 
Stand der Technik und werden nicht naher beschrieben. Weitere Ausfuhrungen zum 
Stand der Technik von 3D Displays sind folgenden, beispielhaft genannten Schriften zu 
entnehmen : Computer Graphics / Addison-Wesley ISBN 0201848406, DE 4331715, 
DE 4417664, DE 19753040, DE 19827590, DE 19737449 

Der Einsatz computeranimierter photorealistischer Echtzeitdarstellung dreidimensionaler 
bewegter Szenen und Bilder erstreckt sich uber die Darstellung dreidimensionaler CAD 
Daten, die Darstellung medizinischer und technisch- analytischer Daten, uber die 
Filmanimation sowie dem Einsatz in Flug- und Fahrsimulatoren, bis zu den sogenannten 
Home Anwendungen in Computerspielen mit aufwandiger Echtzeitgraphik. 

Daruber hinaus konnen die gleichen Verfahren ohne weitere Anderungen an der 
funktionalen Ausfuhrung auch zur nicht-photorealistischen Bilderzeugung (z.B. 
Strichzeichnungen oder Comic-Stil Darstellungen) verwendet werden. Ebenso sind ohne 
weitere technische Anderungen Berechnungen durchfuhrbar, die ublicherweise nicht 
direkt mit Bildberechnung in Verbindung gebracht werden. Beispielsweise gehoren hierzu 
die Kollisionserkennung zwischen geometrischen Objekten (engl. Collision Detection) und 
das diskrete Losen von numerischen Problemen, Alle beschriebenen Anwendungen sind 
nicht auf den interaktiven Bereich beschrankt und konnen ohne Anderungen an Verfahren 
oder Vorrichtung auch im Offline-Bereich, beispielsweise bei der Berechnung von 
Kinofilmen oder sehr aufwandigen physikalischen Simulationen, eingesetzt werden. 

Die funktionelle Realisierung und die Hardwareimplementierung der Ray-Tracing 
Verfahren erfolgt in komplexen und schnellen Logiktechnologien, wobei deren Umsetzung 
sowohl als festverdrahtete Digital-Logik in Form von diskreter Digital-Logik bestehend aus 
einzelnen Standard IC, oder Kunden- oder Anwendungsspezifisch gefertigten IC 
beispielsweise ASIC, oder von komplexen programmierbaren Logikbausteinen / 



WO 2005/078665 PCT/DE2005/000266 

15 

Logikschaltkreisen, beispielsweise CPLD oder FPGA Technologien mit oder ohne CPU 
Kern, oder der Kombination dieser Technologien erfolgt. 

Die nachfolgend beschriebene, beispielhafte Ausfuhrungsform der Erfindung beschreibt 
die Ray-Tracing Einheit einer Computer-Graphikkarte, bei der die 
Hardwareimplementierung der Ray-Tracing Verfahren beispielsweise in einem 
freiprogrammierbaren Logikbaustein FPGA, in ASIC Technologie, oder in einem 
festverdrahteten Spezial Chip erfolgen kann. 

Soweit Verfahren und Funktionsablaufe beschrieben werden, so sind diese rein 
hardwaremafcig zu realisieren. Das bedeutet, dass entsprechende Logikeinheiten und 
hardwaremafiig realisierte Arithmetikeinheiten zu gestalten sind. 

Die Standardfunktion der Ansteuerelektronik zur Ansteuerung des Datendisplays 
(Kathodenstrahlrohre, TFT-, LCD- oder Plasmamonitor) und deren Timing entsprechen 
dem Stand der Technik, werden als bekannt vorausgesetzt und sind nicht Gegenstand 
der Beschreibung. Eine Schnittstelle zwischen dem Bildspeicher dieser Standardfunktion 
und der erfindungsgemaften Umsetzung der Ray-Tracing Verfahren wird beschrieben. 

Die Beschreibung gliedert sich in zwei Teile. Zunachst wird die Ray-Casting-Pipeline 
abgekurzt RCP beschrieben. Dabei handelt es sich urn den Kern des Designs, der 
Strahlen durch die Szene traversiert und den Auftreffpunkt zuruckliefert. 

Im zweiten Teil wird fur die Ray-Casting-Pipeline eine optimierte Ray-Tracing Architektur 
beschrieben, in der mehrere dieser Ray-Casting-Pipelines zusammenarbeiten. 

Die Figur 2 zeigt die Ray-Casting-Pipeline Einheit (RCP), die aus mehreren 
Untereinheiten besteht. Die Traversierungs-Einheit traversiert den Strahl durch eine 
geeignete Beschleunigungsstruktur, vorzugsweise einen k-D Baum. Der Strahl wird so 
lange traversiert, bis er in einen Bereich der Szene kommt, in dem sich mogliche Treffer- 
Objekte befinden. Die Objekte dieses Bereiches sind in einer Liste gespeichert, die von 
der Listen-Einheit bearbeitet wird. Die Listen-Einheit beinhaltet auch eine Mailbox, die 
verhindert, dass ein Dreieck oder Objekt beim SchieSen eines Strahles mehrfach mit dem 
Strahl geschnitten wird, indem es sich bereits mit dem Strahl geschnittene Objekte oder 
Dreiecke merkt. Dadurch mussen nicht so viele Strahl-Objekt- bzw. Strahl-Dreiecks- 
Schnittpunktberechnungen durchgefuhrt werden, was die Berechnung beschleunigt. 

Diese Objekte mussen nun auf einen moglichen Schnittpunkt hin untersucht werden. Falls 
es keinen gultigen Schnittpunkt gibt, muss mit der Traversierung fortgesetzt werden. Die 
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Listen-Einheit sendet die moglichen Treffer-Objekte, die nicht bereits bearbeitet wurden, 
eins nach dem anderen, zur Matrix-Lade-Einheit, die die zu dem Objekt gehorige affine 
Transformation ladt. Diese affine Transformation kann durch eine 4x3 Matrix dargestellt 
werden. Es kann sich dabei um Objektraumtransformationsmatrizen oder urn Matrizen 
handeln, die in den Normraum eines Primitiven Objektes transformieren. Nachdem die 
Matrix-Lade-Einheit die Matrix in der Transformationseinheit gespeichert hat, werden die 
Strahlen von der Strahl-Einheit durch die Transformationseinheit geschickt. 

Nach der Transformation sind nun zwei Szenarien mdglich. Zum einen kann es sich um 
ein Objekt handeln, das noch weitere Objekte beinhaltet 1st dies der Fall, so wandern die 
Strahlen wieder zurdck in die Traversierungs-Einheit und der transformierte Strahl wird in 
dem Objekt weiter traversiert. Handelt es sich jedoch um ein Primitives Objekt, so geht 
der Strahl direkt weiter in die Schnittpunktberechnungs-Einheit, die den Stahl mit dem 
Normobjekt schneidet. Die Schnittpunktberechnungs-Einheit kann wie zuvor beschrieben 
mehrere Normobjekte (Dreiecke, Kugeln usw.) unterstutzen. 

Die berechneten Schnittpunkt-Daten werden in der Schnittpunkt-Einheit gesammelt. Die 
Schnittpunkt-Einheit liefert einen Ruckkanal zur Traversierungs-Einheit, so dass diese 
erkennen kann, ob schon gultige Schnittpunkt-Daten vorhanden sind. 

Die Traversierungs-Einheit, Listen-Einheit und Matrix-Lade-Einheit sind die einzigen 
Einheiten der Ray-Casting-Pipeline, die auf externen Speicher zugreifen. Die 
Traversierungs-Einheit greift auf die Beschleunigungsstruktur zu, die Listen-Einheit auf 
Listen von Objektadressen und die Matrix-Lade-Einheit auf affine Transformationen in 
Form von Matrizen. Alle drei Einheiten sind uber einen eigenen Cache mit dem 
Hauptspeicher verbunden, um die notige Speicherbandbreite zu gewahrleisten. 

Eine vereinfachte Version der Ray-Casting-Pipeline ist in Figur 12 dargestellt, wobei nur 
die wichtigsten Einheiten abgebildet sind: die Traversierungs-Einheit, welche die Strahlen 
durch die Beschleunigungsstruktur traversiert, die Listen-Einheit, welche die Listen 
bearbeitet, die Transformations-Einheit, welche die geladene Transformation auf die 
Strahlen anwendet, und die Schnittpunktberechnungs-Einheit, die den transformierten 
Strahl mit dem Norm-Objekt schneidet. 

Die Ray-Casting-Pipeline ist entsprechend der Darstellung der Figur 3 in eine geeignete 
Ray-Tracing Architektur eingebettet. Die Abbildung zeigt 4 Ray-Casting-Pipeline Einheiten 
mit ihren jeweils 3 Caches. Es sind hier jeweils 2 Einheiten mit einer Shading Einheit 
verbunden. Diese Shading Einheiten verwenden die Ray-Casting-Pipeline Einheiten, um 
die Farben der Pixel des Bildes zu berechnen. Hierzu schieftt die Shading Einheit 
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Primarstrahlen, verarbeitet die Auftreffinformationen, die die Ray-Casting-Pipeline 
zuruckliefert, und schiefct Sekundarstrahlen beispielsweise zu Lichtquellen. Bei den 
Shadingeinheiten kann es sich um festverdrahtete Hardware oder urn die spater 
beschriebenen programmierbaren Ray-Tracing Prozessoren handeln. 

Die Shading Einheiten besitzen einen Kanal zur Transformationseinheit der Ray-Casting- 
Pipeiine. Dieser wird verwendet, um Kameramatrizen und Matrizen fur Sekundarstrahlen 
zu laden und dadurch den Rechenaufwand fur die Shading Einheit zu minimieren. Es ist 
vorteilhaft, wenn die Shading Einheiten jeweils einen getrennten Textur Cache und 
Shading Cache besitzen. Der Shading Cache enthalt Shadinginformationen zu der 
Geometrie der Szene wie zum Beispiel Farben und Materialdaten. Der Texturcache ist mit 
dem Texturspeicher verbunden und ermoglicht den Shading Einheiten Zugriff auf 
Texturen. Es ist vorteilhaft, wenn jede Shading Einheit ihren eigenen lokalen Frame-Buffer 
besitzt, auf dem sie die Farben und Helligkeitswerte der gerade bearbeiteten / 
berechneten Pixel ablegt. Des weitern ist es von Vorteil, falls ein Z-Buffer vorhanden ist, 
da dieser fur die nachfolgend beschriebene Anbindung an die Standard- 
Rasterisierungshardware benotigt wird. 

Ist die Farbe eines Pixels von der Shading Einheit vollstandig berechnet, so kann diese 
Farbe uber die optionale Tone-Mapping-Einheit in den globalen Frame-Buffer geschrieben 
werden. Die Tone-Mapping-Einheit wendet eine einfache Funktion auf die Farbe an, um 
diese in dem 24 Bit RGB Raum abzubilden. Auch die geometrischen Tiefenwerte (Z- 
Werte), die im optionalen lokalen Z-Buffer gespeichert sind, konnen nun in den optionalen 
globalen Z-Buffer ubertragen werden. 

Die Farbe bzw. der neue Z-Wert werden jedoch nur dann in den Frame-Buffer bzw. 
Z-Buffer geschrieben, wenn der zuvor im Z-Buffer vorhandene Z-Wert gro(Jer ist. 
Hierdurch ist sichergestellt, dass nur dann Pixel geschrieben werden, wenn sie 
geometrisch vor bereits von der Rasterisierungshardware oder anderen Ray-Tracing 
Passes berechneten Werten liegen. So ist es moglich, die Ray-Tracing Hardware mit 
einer Standard Rasterisierungshardware zu kombinieren, die auf dem gleichen Frame- 
Buffer bzw. Z-Buffer arbeitet, der hierbei auch die Schnittstelle zu dieser Standard 
Rasterisierungshardware darstellt. 

Zur weiteren Erhohung der Systemleistung konnen optional noch weitere Shading- 
Einheiten mit den zugehorigen Ray-Casting-Pipelines und Caches parallel geschaltet 
werden. Der leistungssteigernde Effekt liegt hierbei in der Verbreiterung der Daten- und 
Verarbeitungsstruktur. 
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Es ist nicht zu erwarten, dass die gesamte Szene in den lokalen Hauptspeicher eines 
Ray- Tracing Chips passt. Urn dieses Problem zu losen, kann der lokale Hauptspeicher 
als ein grofJer Cache verwendet werden, der groBere Blocke der Szene cached. Die 
eigentliche Szene befindet sich an anderer Stelle und wird uber DMA bei Bedarf 
nachgeladen. Dieses Verfahren zur virtuellen Speicherbehandlung ermoglicht es, sehr 
grofSe Szenen zu visualisieren, die nicht in den Hauptspeicher des Ray-Tracing Chips 
passen. 

Photon Mapping ist ein Standardverfahren, indem virtuelle Photonen von den Lichtquellen 
aus in die Szene geschossen und auf den Flachen der Szene angesammelt werden. Die 
Lichtverteilung der Szene kann somit simuliert werden. Dies gilt vor allem auch fur 
Kaustiken. Werden Photonen geschossen, so wird eine Beschleunigungsstruktur uber 
den Photonen aufgebaut, die beispielsweise ein k-d Baum sein kann. Nun kann ein Abbild 
dieser berechneten Photonenlichtverteilung erfolgen, indem die Szene mit 
standardmaftigen Ray-Tracing Verfahren visualisiert wird und an jedem Auftreffpunkt die 
dort eintreffende Lichtintensitat derart in die Farbberechnung einfliefct, dass die Energie 
aller in der Nahe dieses Punktes auftreffenden Photonen aufsummiert wird. Hierzu 
mussen alle benachbarten Photonen in der Beschleunigungsstruktur der Photonen 
gesucht werden. Diese Aufgabe kann von der Traversierungseinheit unterstutzt werden, 
indem nicht an einem Strahl entlang, sondern ein Volumina traversiert wird. Auf diese 
Weise konnen alle benachbarten Photonen bearbeitet werden, indem beispielsweise ihre 
Energie aufsummiert wird. 

In der Regel arbeiten Ray-Tracing Verfahren mit unendlich schmalen Strahlen, was zu 
Samplingartefakten (Aliasing) fuhrt. Eine viel bessere Approximation ergibt sich durch die 
Verwendung von Strahlkegeln anstelle von Strahlen. Das Licht, das ein Pixel der Kamera 
beleuchtet, kommt nicht nur aus einer diskreten Richtung, sondern aus einer Art 
Pyramide, die durch einen Kegel sehr gut approximiert werden kann. Das Traversieren 
dieses Raumvoluminas von vorne nach hinten, beschrieben durch einen Strahlkegel oder 
eine Strahlpyramide, kann ebenfalls von der Traversierungseinheit als Spezialfunktion 
durchgefuhrt werden. Figur 6 zeigt eine zweidimensionale Abbildung eines Strahlkegels. 

Die Signalaufbereitung zur Ansteuerung des Displays und die Timinggenerierung fur das 
Display bzw. den Monitor kann in bekannter Art durch die optionale 
Rasterisierungshardware erfolgen oder durch geeignete funktionale Einheiten umgesetzt 
werden falls vorteilhaft fur die gewunschte Anwendung. So konnen die Grundfunktionen 
der Standard Rasterisierungshardware mit den hardwareimplementierten Ray-Tracing 
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Verfahren und Funktionen zu einer sehr leistungsfahigen Echtzeit Hardwarearchitektur 
verbunden werden. 

Eine zweite, weitere beispielhafte Ausfuhrungsform der Erfindung basiert auf der 
Gestaltung und Anwendung von frei programmierbaren Ray-Tracing CPUs oder Ray- 
Tracing Prozessoren, die programmgesteuert die erfindungsgemaft beschriebenen, 
speziellen Ray-Tracing Funktionen und Verfahren ausfuhren. Hierbei werden durch 
entsprechende Logik- und Funktionsparallelitat jeweils nur wenige, vorzugsweise ein oder 
zwei CPU Taktzyklen, zur Abarbeitung der Einzelfunktion benotigt. 

Soweit interne Algorithmen, Verfahren und Funktionsablaufe der Ray-Tracing 
Prozessoren, beschrieben werden, sind diese mittels einer Hardware- 
beschreibungssprache, zum Beispiel HDL, VHDL, oder JHDL zu erstellen und auf die 
entsprechende Hardware zu ubertragen. Die Hardwareimplementierung der Ray-Tracing 
Prozessoren mit den implementierten Verfahren und Funktionen kann beispielsweise in 
einem freiprogrammierbaren Logikbaustein FPGA, in ASIC Technologie, in der 
Kombination von digitalen Signalprozessoren mit FPGA / ASIC oder in einem 
festverdrahteten Spezial Chip erfolgen. 

Dies bedeutet, dass entsprechende Logikeinheiten und hardwaremafJig realisierte 
Arithmetikeinheiten zu gestalten sind, deren Einzelfunktionen programmgesteuert 
abgerufen werden konnen. Abhangig von der Komplexitat der eingesetzten 
Hardwaretechnologie konnen pro Chip eine oder mehrere Ray-Tracing Prozessoren, mit 
oder ohne weiteren Logikfunktionen realisiert werden. 

Ray-Tracing Prozessoren sind voll programmierbare Recheneinheiten, die auf die 
Ausfuhrung von Vektorarithmetikbefehlen und speziellen Ray-Tracing Befehlen wie 
"Traversieren" und "Erstellen von Beschleunigungsstrukturen" ausgelegt sind. Hierbei 
kann eine Auslegung unter Hinzunahme von Funktionseinheiten erfolgen oder aber auch 
mit bereits vorhandenen Funktionseinheiten unter Hinzunahme von ggf. wenigen 
Logikbausteinen. Beispielsweise kann das Traversieren durch spezielle 
Funktionseinheiten erfolgen oder durch eine Erweiterung der vorhandenen arithmetischen 
Funktionseinheiten um wenige logische Funktionseinheiten. 

Wie in Figur 1 1 zu sehen ist werden mehrere der in Figur 5 dargestellten Ray-Tracing 
Prozessoren parallel geschaltet. Das Speicherinterface wird von einer Cache-Hierarchie 
gebildet, welche die notige Speicherbandbreite bereitstellt. Dieses Vorgehen ist wegen 
der starken Koharenz benachbarter Strahlen effizient moglich. Bei dem Ray-Tracing 
Prozessor Konzept bearbeitet jeder Ray-Tracing Prozessor entweder genau ein Pixel des 
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Bildes Oder ein Paket von mehreren Pixeln. Hierbei entspricht die Berechnung jedes 
einzelnen Pixels einem Berechnungsthreads. Mehrere dieser Threads werden zu einem 
Paket gebundelt und als ganzes synchronisiert abgearbeitet. Synchron abgearbeitete 
Threads zeichnen sich dadurch aus, dass diese immer gemeinsam die gleiche Instruktion 
ausfuhren. Dies ermoglicht die Erstellung effizienter Hardware und die Durchfuhrung von 
Speicheranfragen pro ganzem Paket und nicht einzeln fur jeden Thread. Vor allem diese 
Reduktion der Speicheranfragen ist ein wesentlicher Vorteil der Bearbeitung von Paketen 
von Threads. 

Der Thread Generator von Figur 11 erstellt Threads, die auf den Ray-Tracing 
Prozessoren ausgefuhrt werden. Der Thread Generator kann auch von den Ray-Tracing 
Prozessoren programmiert werden. Spezielle Funktionen zum Abtasten der Pixel des 
Bilder auf eine Cache-koharente Art und Weise (zum Beispiel Hilbert Kurve) erlaubt es, 
die Ray-Tracing Prozessoren optimal mit koharenten Threads zu versorgen. Dies 
reduziert die benotigte Speicherbandbreite. Der Thread Generator hat auch Zugriff uber 
ein DMA-Interface auf den Hauptspeicher. Es konnen also auch die Startwerte fur die 
einzelnen Threads in einem vorherigen Bearbeitungsschritt erstellt und in den Speicher 
geschrieben werden, urn spater aus diesen Daten wieder neue Threads zu generieren. 

Das Bearbeiten eines Pixels geschieht durch ein Softwareprogramm, das auf dem Ray- 
Tracing Prozessor lauft. Dieses Softwareprogramm beschreibt einen rekursiven 
Verfahrensablauf zum Berechnen des Farbwertes eines Pixels, selbst wenn die Hardware 
auf Paketen von Strahlen arbeitet. Das Paketmanagement ist also transparent zum 
Programmiermodell. 

Figur 5 zeigt einen beispielhaften Aufbau eines Ray-Tracing Prozessors. Zu sehen ist ein 
Standard-Prozessorkern (RISC Kern), dem zwei Spezialcoprozessoren parallel geschaltet 
sind. Die Coprozessoren besitzen jeweils ihre eigenen Register. Es ist jedoch auch 
moglich, durch Spezialbefehle diese Registerinhalte von einem Coprozessor in einen 
anderen zu uberfuhren. Der Traversierungs-Kern ist ein spezieller Coprozessor, der 
Strahlen effizient durch eine Beschleunigungsstruktur traversieren kann. Hierzu benotigt 
er ein spezielles Speicherinterface zu den Knoten der Beschleunigungsstruktur (Knoten- 
Cache). Der Vektor Arithmetik Kern ist ein Spezialcoprozessor, der effizient Operationen 
im 3D Raum durchfuhren kann. Die von jeder Ray-Tracing Software benotigten 
Vektoradditionen, Skalarmultiplikationen, Kreuzprodukte und Vektorprodukte konnen 
mittels dieser Einheit schnell berechnet werden. Die Vektorarithmetikeinheit benotigt 
Zugriff auf einen Spezialcache, der es ermoglicht, ganze Vektoren in einem Takt zu laden. 
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Die Semantik des Traversierungsbefehls konnte folgendermafcen aussehen. Die Ray- 
Tracing CPU beschreibt spezielle Register mit dem Ursprung und der Richtung des 
Strahles und der Adresse der Beschleunigungsstruktur, die traversiert werden soil. Nun 
wird ein spezieller Befehl aufgerufen, der eine spezielle Traversierungseinheit startet. 
Diese Einheit traversiert die Beschleunigungsstruktur und sendet alle Knoten, die Objekte 
enthalten, zu einer Listeneinheit, die einen Mailboxingmechanismus enthalten kann, der 
auch schon in der ersten beispielhaften Ausfuhrungsform der Erfindung beschrieben 
wurde. Fur jedes Objekt wird nun ein kleines Programm auf der CPU ausgefuhrt, das den 
Strahl mit diesem Objekt schneidet. 1st ein gultiger Schnittpunkt des Strahles mit einem 
Objekt gefunden, so wird zu dem Programm zuruckgekehrt welches den Strahl 
geschossen hatte. 

Die in dem Ray-Tracing Prozessor hardwaremafiig implementierten Einzelbefehle oder 
Logikfunktionen beinhalten die gleichen Algorithmen, die schon bei der festverdrahteten 
ersten Ausbildungsform der Erfindung beschrieben sind. Erganzend hierzu kann dieser 
Befehlssatz jedoch urn weitere festverdrahtete Befehle und Funktionen erganzt werden, 
die wiederum programmgesteuert zu aktivieren sind. Durch spezielle Traversierungs- 
Operationen, durch Vektorarithmetik, sowie durch die parallele Abarbeitung mehrer 
Threads auf einem Ray-Tracing Prozessor wird die fur Echtzeitanwendung erforderliche 
Rechenleistung bereitgestellt und gleichzeitig werden die Auswirkungen der 
Speicherlatenzen (Wartezeiten auf Speicheranfragen) auf die Systemgeschwindigkeit 
minimiert oder sogar irrelevant. 

Dadurch, does die RTPU progrommgeGteuert dazu v o rwandt werden kann, rekureiv 
Sekundarstrahlen durch die Szone zu cchi o fl e n, wird doG Progrommi e rmodell im 
Vergleich zur festverdraht e t e n Hardwar e e rh e blich v e rcinfacht. 

1st die Farbe des Pixels vollstandig berechnet, kann diese in den Frame-Buffer 
geschrieben werden. Gegebenenfalls kann zusatzlich die Distanz in den Z-Buffer 
geschrieben werden. Hierdurch ist eine Anbindung an Rasterisierungshardware und die 
entsprechende Darstellung auf einem Display moglich. 

Anspruch 10 beschreibt die Verwendung einer zusatzlichen raumaufteilenden 
Datenstruktur, die keine geometrischen Objekte speichert oder referenziert, sondern 
Raumeinflusse oder materialverandernde Parameter enthalt. Solche Raumeinflusse 
konnen beispielsweise Nebel, Dunst, Staubpartikel oder heifier Rauch sein r wobei 
beispielsweise heilier Rauch auch eine Veranderung der durch das Volumen des Rauchs 
sichtbaren Szene zur Folge haben kann. Weitere Raumeinflusse sind Lichtquellen oder 
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materialverandernde Auren wie sie beispielsweise in der Darstellung von Fantasiewesen 
verwendet werden konnen. Hierbei erlaubt die Verwendung der raumaufteilenden 
Datenstruktur den Berechnungsaufwand erheblich zu reduzieren, da nur Einflusse 
berucksichtigt werden mussen, die raumlich so gelegen sind, dass sie einen Einfluss 
haben konnen. 

Anspruch 11 beschreibt eine Erweiterung, die es ermoglicht, dreidimensionale Szenen zu 
verarbeiten, die nicht bzw. nicht ausschlielSlich aus Dreiecken aufgebaut sind und die bei 
Bedarf andere geometrische Primitive in Dreiecke oder eine einfach zu verarbeitende 
Zwischendarstellung uberfuhrt. Hierbei wird die zusatzliche Funktionalitat dadurch 
erreicht, dass die Hardware entweder urn Funktionseinheiten erweitert wird oder 
vorhandene Einheiten die Funktionalitat umsetzen. 

Anspruch 12 beschreibt eine Erweiterung, die es ermoglicht, pro Strahl nicht nur den 
nachstgelegenen, sondern zusatzlich weitere Objekt-Strahl-Schnittpunkte als Ergebnis 
einer Strahlverarbeitung zu berechnen. Hierbei ist es vorteilhaft, wenn die Ergebnisse 
nach der Entfernung vom Strahlursprung sortiert sind. Die maximale Anzahl der 
Schnittpunkte pro Ergebnis kann als Konstante festgelegt werden oder pro Strahl in 
Abhangigkeit von Parametern der geschnittenen Objekte erfolgen. Diese Technik kann 
verwendet werden, um Strahlen durch transparente Objekte effizienter zu berechnen. 

Anspruch 13 beschreibt eine Erweiterung, die mit zusatzlichen und/oder den vorhandenen 
Funktionseinheiten zahlen kann, wie oft ein bestimmtes Element in den Berechnungen 
eines Bildes verwendet wurde. Hierbei konnen die zu zahlenden Elemente sehr 
unterschiedlich sein und eine mogliche Klassifizierung der Elemente konnte uber die 
Adresse im Speicher oder die ID eines Elementes erfolgen. Zu diesen Elementen 
gehoren: 

dynamische und geometrische Objekte, Teile oder vollstandige Materialbeschreibungen, 
Elemente oder Teilgruppen einer Raumbeschreibungsdatenstruktur, Programme oder 
Programmfunktionen, einzelne Speicherzellen und ganze Speicherseiten oder -bereiche. 

Anspruch 14 beschreibt eine Erweiterung der Funktionalitat zum Berechnen der 
Raumbeschreibungsdatenstrukturen zu Teilen oder vollstandigen dreidimensionalen 
Szenen, wobei zusatzliche Parameter pro dynamischem Objekt oder dynamischem 
Teilobjekt oder geometrischem Objekt einen Einfluss auf die Berechnungsweise der 
Raumbeschreibungsdatenstruktur haben. Solche Einflusse konnen beispielsweise sein, 
dass ein Objekt spezifiziert, dass es in bestimmten Raumvolumina keine geometrischen 
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Objekte besitzt. Dies erlaubt es, die Raumbeschreibungsdatenstruktur effizienter zu 
berechnen und zusatzlich den Berechnungsaufwand pro Bild weiter zu reduzieren. 



Beschreibung der Zeichnungen 

Figur 1 zeigt, wie aus mehreren Stufen von Objekten ein Baum erstellt werden kann. 
Zunachst wird als Objekt 101 der Stufe 1 ein Blatt modelliert. Dieses Blatt 101 wird nun 
mehrfach instantiiert und an einen Ast 102 gesetzt, wodurch ein weiteres Objekt entsteht, 
jedoch jetzt ein Objekt der Stufe 2. Diese kleinen Aste 102 konnen nun wieder mehrfach 
instantiiert werden zu einem Baum 103 als Objekt der Stufe 3. 



Figur 2 zeigt die Ray-Casting-Pipeline 200 mit den wichtigsten Datenpfaden, sowie der 

Schnittstelle zu den Caches. Der Pfeil 201 geht zur Shading-Einheit, der Pfeil 202 kommt 

von der Shading-Einheit. Weiterhin bedeuten: 

203: Traversierungs-Einheit 

204: Listen-Einheit welche eine Mailbox enthalt 

205: Matrix-Lade-Einheit 

206: Strahl-Einheit 

207: Transformations-Einheit 

208: Schnittpunktberechnungs-Einheit 

209: Schnittpunkt-Einheit 

210: Knoten Cache 

211: Listen Cache 

212: Matrix Cache 



Figur 3 zeigt das Top-Level Diagramm einer beispielhaften Implementierung der 
Erfindung. Die 4 Ray-Casting-Pipelines (RCP) sind uber eine Cache-Hierarchie mit den 
getrennten Speichern fur Knoten, Listen und Matrizen verbunden. In diesem 
Beispieldesign sind je zwei RCP's mit einer Shadingeinheit verbunden, die Zugriff auf 
einen lokalen Frame-Buffer und Z-Buffer hat. Uber diese werden Farbwerte mittels einer 
Tone-Mapping-Einheit in einen globalen Frame-Buffer geschrieben und Tiefenwerte direkt 
in einen globalen Z-Buffer geschickt. An diesen Z-Buffer und Frame-Buffer kann eine dem 
Stand der Technik entsprechende Rasterisierungshardware (Rasterisierungs Pipeline) 
angeschlossen werden. 

Dabei bedeuten: 

301 : Rasterisierungshardware 

302: Frame Buffer 

303: Video Out 

304: Tone Mapping Einheit 

305: Z-Buffer 

306: Frame Buffer 1 

307: Z-Buffer 1 
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308: Textur-Cache 1 

309: Shading Cache 1 

310: Shading Einheit 1 

311: Knoten Cache 1 

312: Listen Cache 1 

313: Matrix Cache 1 

314: RCP 1 

315 Knoten Cache 2 

316: Listen Cache 2 

317: Matrix Cache 2 

318: RCP 2 

319: Frame Buffer 2 

320: Z-Buffer 2 

321: Textur-Cache 2 

322: Shading Cache 2 

323: Shading Einheit 2 

324: Knoten Cache 3 

325: Listen Cache 3 

326: Matrix Cache 3 

327: RCP 3 

328 Knoten Cache 4 

329: Listen Cache 4 

330: Matrix Cache 4 

331: RCP 4 



Figur 4 zeigt die Cache-lnfrastruktur, welche die notige interne Speicherbandbreite im 

Chip bereitstellt. In der Abbildung handelt es sich um einen binaren n-stufigen Cache, es 
sind jedoch auch andere hierarchische Strukturen denkbar. 

Dabei bedeuten: 

401: Knoten Cache 1 

402: Knoten Cache 2 

403: Knoten Cache 3 

404: Knoten Cache 4 

405: Knoten Cache 5 

406: Knoten Cache 6 

407: Knoten Cache 7 

408: Knoten Speicher 

409: Listen Cache 1 

410: Listen Cache 2 

411: Listen Cache 3 

412: Listen Cache 4 

413: Listen Cache 5 

414: Listen Cache 6 

415: Listen Cache 7 

416: Listen Speicher 

417: Matrix Cache 1 

418: Matrix Cache 2 

419: Matrix Cache 3 

420: Matrix Cache 4 

421: Matrix Cache 5 

422: Matrix Cache 6 
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423: Matrix Cache 7 

424: Matrix Speicher 

425: Texture Cache 1 

426: Texture Cache 2 

427: Texture Speicher 

428: Shading Cache 1 

429: Shading Cache 2 

430: Shading Cache 3 

431 : Shading Speicher 

Figur 5 zeigt die beispielhafte Ausfuhrungsform einer Ray-Tracing CPU. Dabei haben die 
Blocke folgende Bedeutung: 

501 : Instruktion Laden 

502: Befehlsspeicher 

503: RISC Kern 

504: Cache 

505: Traversierungs Kern 

506: Knoten Cache 

507: Vektor Arithmetik Kern 

508: Vektor Cache 



Figur 6 zeigt ein Beispiel der vereinfachten Geometrie in den Octreeknoten. Dabei ist mit 
der Bezugsziffer 601 der Strahlkegel bezeichnet und mit der Bezugsziffer 602 eine 
'Vereinfachte Geomtrie". 

Figur 7 zeigt ein Beispiel der regelmafJigen Grid Beschleunigungsstruktur an einer 
einfachen Szene. Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der 
Bezugsziffer 701 ist der Strahl bezeichnet. 

Figur 8 zeigt ein Beispiel der k-D Baum Beschleunigungsstruktur an einer einfachen 
Szene. Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der Bezugsziffer 
801 ist der Strahl bezeichnet. 

Figur 9 zeigt ein Beispiel der Octree Beschleunigungsstruktur an einer einfachen Szene. 
Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der Bezugsziffer 901 ist der 
Strahl bezeichnet. 

Figur 10 zeigt die Dreieckstransformation aus dem Globalen Raum in den Norm-Dreiecks 
Raum. Es ist ein Strahl 1001 zu sehen sowie ein Dreieck 1002. Durch eine affine 
Transformation, die durch den Pfeil 1003 reprasentiert wird, entsteht ein transformierter 
Strahl 1004 sowie ein Normdreieck 1005. Der Globale Raum wird durch das linke 
Koordinatensystem reprasentiert und der Norm-Dreiecksraum durch das rechte 
Ko o rd i n ate n sy ste m . 
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Figur 1 1 zeigt eine beispielhafte Ausfuhrungsform der Erfindung basierend auf speziellen 
Ray-Tracing Prozessoren. Dabei haben die Blocke folgende Bedeutung: 

1 101: Rasterisierungshardware 

1102: Thread Generator 

1 1 03: Z-Buffer / Frame Buffer 

1104: Video -Out 

1 105: Ray-Tracing Prozessor 1 

1 106: Ray-Tracing Prozessor 2 

1 1 07: Ray-Tracing Prozessor 3 

1 1 08: Ray-Tracing Prozessor 4 

1109: Cache 1 

1110: Cache 2 

1111: Cache 3 

1112: Cache 4 

1113: Cache 5 

1114: Cache 6 

1115: Cache 7 

1116: Hauptspeicher 



Figur 12 zeigt eine vereinfachte Version der in Figur 2 gezeigten Ray-Casting-Pipeline. 
Dabei haben die Blocke folgende Bedeutung: 

1201: Traversierungs-Einheit 

1202: Knoten Cache 

1203: Listen-Einheit 

1204: Listen Cache 

1205: Transformations-Einheit 

1206: Matrix-Cache 

1 207: Schnittpunktberechnungs-Einheit 

Der Pfeil 1208 kommt von der Shading-Einheit 



Figur 13 zeigt einen einfachen Fall, in dem durch das Auswerten Vergleichen der 
Eckpunkte eines Dreiecks und der Eckpunkte einer Box entschieden werden kann, ob das 
Dreieck mit der Box uberlappt oder nicht. Falls die X-Koordinaten des Dreiecks kleiner 
sind als die kleinste X-Koordinate der Box, so liegt das Dreieck aulierhalb der Box. Das 
Dreieck ist mit der Bezugsziffer 1301 bezeichnet, die Box mit der Bezugsziffer 1302. 
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Patentanspruche 

1. Vorrichtung zur photorealistischen Darstellung von dynamischen komplexen 
dreidimensionalen Szenen mittels des Ray-Tracing Verfahrens, dadurch gekennzeichnet, 
dass diese wenigstens einen programmierbaren Ray-Tracing Prozessor aufweist, in dem 
implementiert sind: 

• spezielle Traversierungsbefehle und/oder 

• Vektorarithmetikbefehle und/oder 

• Befehle zur Erstellung von Ray-Tracing Beschleunigungsstrukturen und/oder 

• wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdruckt wird, dass bei 
Ausfuhrung des Ray-Tracing-Verfahrens beim SchieRen eines Strahies bereits mit 
dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl 
geschnitten werden, 

und dass die Vorrichtung so organisiert ist, dass mehrere Threads parallel abgearbeitet 
werden kdnnen und mehrere Threads automatisch synchron abgearbeitet werden konnen 
und dass die Vorrichtung uber eine n-level Cache Hierarchie und/oder uber ein virtuelles 
Speichermanagement verfugt und/oder uber eine direkte Verbindung mit dem 
Hauptspeicher. 

2. Vorrichtung zur photorealistischen Darstellung von dynamischen komplexen 
dreidimensionalen Szenen mittels des Ray-Tracing Verfahrens, dadurch gekennzeichnet, 
dass diese wenigstens eine spezielle Traversierungs-Einheit aufweist und wenigstens 
eine Listen-Einheit und wenigstens eine Entscheidungseinheit (Mailbox), mit der 
unterdruckt wird, dass bei Ausfuhrung des Ray-Tracing-Verfahrens beim SchieGen eines 
Strahies bereits mit dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem 
Strahl geschnitten werden, und wenigstens eine Schnittpunktberechnungs-Einheit und 
wenigstens eine Einheit zum Erstellen von Beschleunigungsstrukturen und wenigstens 
eine Transformations-Einheit und/oder wenigstens eine Einheit zum Losen von linearen 
Gleichungssystemen und dass mehrere Strahlen oder Threads parallel abgearbeitet 
werden konnen und mehrere Strahlen bzw. Threads automatisch synchron abgearbeitet 
werden konnen und beliebig viele Stufen von dynamischen Objekten in dynamischen 
Objekten realisiert werden konnen und dass die Vorrichtung uber eine n-level Cache 
Hierarchie und/oder uber ein virtuelles Speichermanagement und/oder uber eine direkte 
Verbindung mit dem Hauptspeicher verfugt. 

3. Vorrichtung nach Anspruch 1 , dadurch gekennzeichnet, dass diese wenigstens eine 
spezielle Traversierungs-Einheit aufweist und wenigstens eine Listen-Einheit und 
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wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdruckt wird, dass bei 
Ausfuhrung des Ray-Tracing-Verfahrens beim SchieRen eines Strahles bereits mit dem 
Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl geschnitten werden, 
und wenigstens eine Schnittpunktberechnungs-Einheit und wenigstens eine Einheit zum 
Erstellen von Beschleunigungsstrukturen und wenigstens einen Ray-Tracing Prozessor. 

4. Vorrichtung gemali den Anspruchen 1, 2 oder 3, dadurch gekennzeichnet, dass die 
wenigstens eine Einheit zum Erstellen von Beschleunigungsstrukturen durch spezielle 
Hardware oder durch programmierbare Einheiten oder Ray-Tracing Prozessoren realisiert 
wird und funktionell Verfahren durchfuhrt zum Datenstrukturaufbau der 
Beschleunigungsstruktur sowie der Entscheidung, ob ein Dreieck oder eine Box eine 
andere Box uberlappt, indem die wenigstens eine Einheit eine Entscheidung abhangig 
von Eckpunktvergleichen cier Ecken des Dreiecks bzw. der Box und der Ecken der 
zweiten Box durchfuhrt und - falls keine Entscheidung moglich ist - eine konservative 
Entscheidung trifft oder in diesem Fall ein Programm auf dem programmierbaren Ray- 
Tracing Prozessor gestartet wird, das die exakte Entscheidung fallt, oder eine weitere 
spezielle Hardwareeinheit die exakte Entscheidung fallt oder die ganze Berechnung auf 
dem Ray-Tracing Prozessor stattfindet. 

5. Vorrichtung gemafi den Anspruchen 3 oder 4, dadurch gekennzeichnet, dass die 
wenigstens eine Transformations-Einheit und/oder die wenigstens eine Logikeinheit zum 
Losen linearer Gleichungssysteme funktionell zur Primarstrahlgenerierung und / oder 
Objektraumtransformation und / oder Dreiecks-Normraumtransformation und / oder 
Reflektionsstrahlberechnung und / oder Transparenzstrahlberechnung und / oder 
Schattenstrahlberechnung und / oder Normalentransformation verwendet wird. 

6. Vorrichtung gemaft einem der Anspruche 1 bis 5, dadurch gekennzeichnet, dass die 
wenigstens eine Traversierungseinheit bzw. der Traversierungsbefehl nicht nur entlang 
eines Strahles traversieren kann, sondern auch ein Volumina, so dass alle Objekte in 
diesem Volumina bearbeitet werden konnen. 

7. Vorrichtung gemali einem der Anspruche 1 bis 6, dadurch gekennzeichnet, dass die 
wenigstens eine Traversierungseinheit bzw. der Traversierungsbefehl nicht nur entlang 
eines Strahles traversieren kann, sondern auch entlang eines Strahlkegets oder einer 
Strahlpyramide, so dass alle Objekte, die sich in dem Strahlkegel oder der Strahlpyramide 
befinden, von vorne nach hinten bearbeitet werden konnen. 

8. Vorrichtung gemali einem der Anspruche 1 bis 7, dadurch gekennzeichnet, dass die 
Funktion der wenigstens einen Traversierungs-Einheit und die hardwaremafiige 
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Umsetzung der Traversierungs-Befehle darauf beruht, dass ein Strahl durch eine 
Beschleunigungsstruktur traversiert wird, die auf dem k-D Baum-Verfahren oder dem 
Octreeverfahren oder dem regelmSGigen Grid-Verfahren oder dem Bounding-Volume- 
Hierarchie Verfahren basiert, wobei in jedem Beschleunigungsstruktur-Knoten 
vereinfachte Geometriedaten gespeichert werden, die verwendet werden sobald der 
betrachtete Strahlkegel einen GrofSteil des zu diesem Knoten gehorigen Voluminas 
durchlauft. 

9. Vorrichtung nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, dass 
mehrere Ray-Tracing Einheiten auf mehreren Chips und/oder mehreren Platinen parallel 
arbeiten. 

10. Vorrichtung nach einem der Anspruche 1 bis 9, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware zusatzlich eine raumaufteilende Datenstruktur 
verwendet, in der Raumeinflusse und/oder materialverandernde Parameter gespeichert 
werden, die mit den vorhandenen und/oder zusatzlichen Funktionseinheiten ausgewertet 
werden. 

1 1 . Vorrichtung nach einem der Anspruche 1 bis 10, dadurch gekennzeichnet, dass die 
Ray-Tracing Hardware dreidimensionale Szenen verarbeitet, die nicht ausschlieftlich aus 
Dreiecken aufgebaut sind sondern auch andere geometrische Objekte enthalten, die bei 
Bedarf in andere geometrische Objekte uberfuhrt und/oder direkt mit zusatzlichen 
und/oder vorhandenen Funktionseinheiten und/oder dem programmierbaren Ray-Tracing 
Prozessor bearbeitet werden. 

12. Vorrichtung nach einem der Anspruche 1 bis 11, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware dreidimensionale Szenen verarbeitet und fur einen 
Strahl keinen, einen oder mehrere Objekt-Strahl-Schnittpunkte sortiert oder unsortiert 
nach der Entfernung berechnet, wobei die Anzahl der berechneten Objekt-Strahl- 
Schnittpunkte als Konstante festgelegt sein und/oder durch zusatzliche Parameter der 
Objekte beschrieben werden kann. 

13. Vorrichtung nach einem der Anspruche 1 bis 12, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware mit zusatzlichen und/oder den vorhandenen 
Funktionseinheiten zahlen kann, wie oft ein dynamisches und/oder geometrisches Objekt 
und/oder eine Materialbeschreibung und/oder ein Element und/oder eine Teilgruppe der 
Raumbeschreibungsdatenstruktur und/oder ein Programm und/oder eine Speicherzelle 
und/oder eine Speicherseite in den Berechnungen eines Bildes verwendet wurden. 
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14. Vorrichtung nach einem der Anspruche 1 bis 13, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware mit zusatzlichen und/oder den vorhandenen 
Funktionseinheiten Raumbeschreibungsdatenstrukturen zu Teilen oder vollstandigen 
dreidimensionalen Szenen berechnen kann, wobei zusatzliche Parameter pro 
dynamischem Objekt und/oder dynamischem Teilobjekt und/oder geometrischem Objekt 
einen Einfluss auf die Berechnungsweise der Raumbeschreibungsdatenstruktur haben. 

15. Vorrichtung nach einem der Anspruche 1 bis 14, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware uber einen gemeinsamen Z-Buffer und Frame-Buffer 
an eine Rasterisierungshardware angeschlossen ist, die sich auf dem gleichen oder 
einem separaten Chip wie die Ray-Tracing Hardware befindet. 

16. Vorrichtung nach einem der Anspruche 1 bis 15, dadurch gekennzeichnet, dass 
mehrere Ray-Tracing Einheiten parallel arbeiten und die zur Berechnung benotigten 
Daten auf die Speicher dieser Ray-Tracing Einheiten verteilt sind, und bei Bedarf jeweils 
von der Einheit welche die benotigten Daten speichert nachgeladen wird. 
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